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摘 mE: [目的 /意义 ] 突破 性 


创新 对 科技 发 展 具有 关键 作用 。 大 数据 环境 下 ,科学 技术 发 展 本 身 所 具有 的 复杂 、 多 维 、 不 断 


进化 等 特征 越发 凸显 。 以 动态 视角 进行 突破 性 创新 主题 识别 ,对 于 为 国家 、 am ta c n 


理 配 置 创 新 资源 以 及 提供 创新 升级 解决 方案 具有 重要 意义 。 


[方法 /过 程 ] 综合 运用 主题 模型 \ 词 嵌入 算法 以 及 


M v en nem WI wap dp EXAMS d uu CARA VAE 


以 其 为 基础 结合 突破 性 创新 的 新 颖 性 、 突 变 
向 区 块 链 领域 展开 实证 研究 ,识别 出 神经 


生 、 影 响 力 和 学 科 交 又 性 特征 识别 突破 性 创新 主题 。|[ 结果 /结论 ] wu 
网 络 ( Neural Network) 和 边缘 计算 (Edge Computing) 两 个 主题 的 突破 


pm 
> 
to 性 创新 特征 最 为 显著 。 os 国 国家 科学 技术 委员 会 发 布 的 关键 和 新 兴 技 术 清单 ,验证 了 
mN 


本 文 方法 的 可 行 性 和 有 效 性 。 但 有 关 结 果 
e 研究 。 


定量 验证 ,以 及 融合 多 源 数据 的 突破 性 创新 主题 识别 有 待 进一步 


exa. 突破 性 创新 主题 网 络 主题 识别 LDA Word2vec 模型 区 块 链 
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CN 全 球 新 一 轮 科 技 革命 蕃 势 待 发 ,我 国 进 入 “十 四 


五 发 展 的 重要 时 期 ,习近平 总 书记 曾 多 次 强调 ,“ 创 
新 旦 推动 一 个 国家 、 m 
detti or ( Radical Innovation ) 作为 一 种 极 具 革 命 

AEA AELE MAR BAIT 
要 索 , 是 新 时 期 在 日 趋 激烈 的 国际 竞争 中 把 握 先 机 的 
重要 保障 5-90 。 在 “提升 创新 体系 效能 "大 背景 下 ,及 
时 准确 地 识别 突破 性 创新 ,是 面向 国家 政策 制定 、 企 业 
战略 布局 .学 界 科研 规划 提供 决策 支持 的 关键 一 环 ,已 
经 成 为 学 术 界 与 产业 界 共同 关注 的 重要 研究 问题 
A 


J 


突破 性 创新 的 概念 基于 熊 彼 特 提出 的 “创造 性 的 
EIK”, W. J. Abernathy 等 将 其 定义 为 利用 技术 创新 
提升 企业 地 位 、 重 构 市 场 格局 的 创新 ,为 后 续 突 破 性 创 
新 的 研究 奠定 了 基础 。 作 为 一 种 非 渐进 式 的 创新 活 
动 ,突破 性 创新 具有 突变 性 、 新 颖 性 .学科 交叉 性 等 多 
种 特征 ,目前 已 有 大 量 研究 采用 文献 计量 文本 挖掘 以 


及 网 络 分 析 等 方法 ,对 突破 性 创新 识别 展开 研究 ,并 取 
得 了 一 定 成 果 '"“。 具 体 地 ,基于 引文 分 析 和 共 词 分 
析 的 研究 ,分 别 从 文献 或 专利 被 引 数量 .引文 数量 、 引 
文 新 颖 性 .引文 关键 词 或 共 词 网 络 以 及 词 频 变化 等 角 
度 构 建 相关 指标 识别 突破 性 创新 ”…” 。 但 引文 分 析 存 
在 一 定 的 时 滞 性 问题 , 共 词 分 析 则 在 探究 文本 语义 与 
特征 表达 上 存在 不 足 。 针 对 上 述 问 题 , 已 有 学 者 结合 
文本 挖掘 和 网 络 分 析 的 方法 进行 突破 性 创新 识 
3" 77, 但 是 ,在 网 络 视角 下 充分 考量 技术 演化 的 动 
态 性 以 及 全 面 测度 突破 性 创新 的 多 种 特征 等 具体 问题 
上 ,仍然 缺乏 较为 系统 的 工作 。 基 于 已 有 研究 ,本文 聚 
焦 以 下 两 个 研究 问题 :中 如 何 合理 抽取 并 向 量化 主题 ， 
构建 动态 主题 网 络 ,反映 目标 领域 主题 演化 过 程 与 态 
势 ? @ 如 何在 问题 四 的 基础 上 测度 突破 性 创新 的 多 种 
特征 ,更 加 系统 地 识别 领域 内 的 突破 性 创新 主题 ? 
e Extraction) J£ 是 突破 性 创新 主题 识 
别 的 关键 基础 之 一 。 技 术 主 题 的 抽取 质量 会 影响 
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后 续 主 题 多 种 性 质 的 识别 。 从 宏观 、 浅 层 的 统计 研究 
过 渡 到 具体 ,深入 的 知识 发 现 是 大 数据 背景 下 科学 计 
量 学 与 科技 文本 挖掘 相关 方法 揭示 学 科 知 识 结构 的 研 
究 趋 势 。 在 已 有 的 主题 抽取 研究 中 ,以 关键 词 为 基础 
的 方法 对 于 技术 概念 的 表达 最 为 细致 ,但 往往 需要 进 
行 多 层 ,大 量 ` 有 监督 的 筛选 ,筛选 原则 及 聚 类 的 粒度 
直接 影响 技术 主题 的 生成 ,给 后 续 主题 语义 表达 带 来 
了 更 多 的 挑战 。 以 隐 含 狄 利 克 雷 分 布 ( Latent 
Dirichlet Allocation, LDA) 为 代表 的 主题 模型 ,由 于 能 
够 深入 挖掘 大 量 文本 中 的 隐 含 语义 ,近年 来 受到 主题 
识别 -中 ,技术 预测 .科学 图 谱 区 等 领域 学 者 的 广 
泛 关注 ,但 已 有 研究 尚未 对 如 何 合理 预 设 主题 数目 达 
成 普遍 共识 。 同 时 ,已 有 综述 研究 指出 现 有 突破 性 创 
新 识别 方法 在 考量 主题 演化 方面 仍然 存在 局 限 性 。 
为 宁 揭 示 科 技 创新 过 程 中 主题 的 产生 ` 发 展演 变 、 消 
< 本 过 程 ,进而 更 好 地 识别 突破 性 创新 主题 ,需要 合理 
PE 主题 在 单一 时 间 窗 口 或 多 个 时 间 窗 口 的 相似 度 。 
P LDA 为 代表 的 主题 模型 很 难 测度 主题 之 间 的 “ 距 
离 字 在 计算 主题 相似 度 方面 存在 固有 问题 "” , 主题 识 
别 台 后 续 的 技术 演化 ,特征 分 析 缺 乏 系 统 衔接 。 词 要 
全 Word Embedding) 算 法 可 以 在 考虑 内 容 上 下 文 的 同 
时 欧 现 大 规模 文本 数据 中 的 法 在 语义 2 。 近 年 来 , 因 
其 漳 词 映射 到 向 量 空间 的 出 色 能 力 引起 了 广泛 的 关 
司 向 量 可 用 于 替换 科学 文本 挖掘 中 的 传统 单词 表 
> 欠 而 为 主题 提取 及 主题 相似 度 计算 带 来 了 全 新 
um. 
-三 基于 以 上 背景 ,面向 突破 性 创新 识别 在 大 数据 环 


卉 而 进行 主题 提取 、 关 系 表示 及 指标 体系 构建 的 全 新 


挑战 ,本 文 综合 运用 主题 模型 . 词 散 入 以 及 复杂 网 络 分 
析 等 方法 ,构建 动态 主题 网 络 同时 揭示 主题 演化 过 程 ， 
并 以 其 为 基础 结合 突破 性 创新 多 项 特征 对 突破 性 创新 
主题 进行 识别 。 具 体 地 ,本 文 以 多 个 时 间 窗 口 下 的 科 
研 论文 数据 为 数据 源 , 综 合 运 用 概率 主题 模型 与 词 骨 
入 的 方法 进行 主题 的 抽取 与 向 量化 ,克服 以 关键 词 为 
核心 的 主题 识别 方式 在 语义 表达 上 存在 盲点 ,以 及 篇 
选 及 降 维 困难 等 问题 ,同时 完成 科技 文本 到 数学 向 量 
的 映射 。 在 连续 时 间 窗 口 下 ,本文 构建 起 统一 向 量 空 
间 内 动态 变化 的 多 个 主题 网 络 ,并 对 目标 文本 集 在 多 
个 网 络 上 的 主题 演化 情况 进行 定量 的 表达 与 总 结 。 最 
后 ,在 分 析 动 态 主题 网 络 的 结构 特性 变化 及 知识 流动 的 
基础 上 ,本 文通 过 对 突破 性 创新 内 涵 与 特征 的 梳理 , 构 
建 起 测度 主题 "新 对 性 “突变 性 “影响 力 ” 和 “学 科 交 
又 性 ”的 层次 指标 体系 ,对 突破 性 创新 主题 进行 识别 。 


1 研究 现状 


1.1 突破 性 创新 内 涵 及 特征 

迄今 为 止 ,已 有 大 量 学 者 从 不 同 角度 .不同 方面 对 
突破 性 创新 进行 定义 并 展开 研究 ,其 研究 维度 主要 包 
含 微观 与 宏观 两 个 层面 。 微 观 层面 从 技术 本 身 出 发 ， 
关注 技术 自身 所 带 来 的 突破 ,认为 突破 性 创新 不 同 于 
渐进 式 创新 对 现 有 技术 的 微小 改变 和 调整 ,而 是 整合 
新 的 学 科 知 识 , 基 于 不 同 的 科技 原理 ,结合 科学 前 沿 与 
新 兴 技 术 突 破 现 有 的 技术 柳 锁 ,创造 革命 性 的 技术 变 
eS 。 宏 观 层面 则 从 创新 活动 所 产生 的 实质 性 影 
响 力 进行 定义 , 主要 包括 两 个 方面 :其 一 是 对 市 场 
或 行业 格局 产生 的 影响 力 …”” ;其 二 是 在 科学 研究 中 
P^ BEAR REEL JI UU 

已 有 研究 归纳 突破 性 创新 内 涵 的 切入 点 与 侧重 点 
各 有 不 同 。 本 文通 过 系统 梳理 ,较为 全 面 地 总 结 目前 
研究 中 的 突破 性 创新 特征 ,包含 前 沿 性 .突变 性 ,高 影 
响 力 .学科 交叉 性 .不 连续 性 和 非 线 性 ,长 期 性 .不 确定 
性 和 不 可 预测 性 ,发 散 性 以 及 随机 性 和 侦 然 性 ,具体 的 
特征 解释 如 表 1 所 示 。 虽 然 已 有 研究 归纳 了 突破 性 创 
新 的 多 种 特征 ,但 在 实际 识别 过 程 中 , 因 其 中 部 分 特 
征 ,如 不 可 确定 性 ,发 散 性 .偶然 性 等 ,难以 被 直接 量 
化 ,在 现 有 的 定量 研究 中 , 新颖 性 ""””、 学 科 交 又 
WE OU apye] p gw 107 55 d ub (1 26 VE 
创新 主题 识别 的 主要 特征 。 因 此 ,汲取 现 有 研究 对 突 
破 性 创新 内 涵 的 理解 以 及 主要 特征 选取 经 验 ,本 文 以 
主流 研究 中 最 为 常用 的 特征 为 基础 , 即 新 颖 性 .突变 性 
( 即 重大 突破 ) ,高 影响 力 以 及 学 科 交叉 性 ,构建 层次 
指标 体系 ,展开 定量 研究 。 
1.2 主题 抽取 与 演化 分 析 

主题 抽取 , 即 主题 识别 ,作为 文本 挖掘 的 一 项 具体 
应 用 ,在 目前 的 国内 外 研究 中 ,主要 基于 关键 词 (主题 
W) RAK SAO 语义 结构 识别 "3 以 及 概率 主题 模型 等 
技术 方法 。 总 体 来 说 ,三 种 方法 在 核心 技术 内 容 的 提 
取 与 表达 上 各 有 利 次 :传统 的 以 关键 词 为 基础 的 方 
法 对 于 技术 概念 的 表达 最 为 细致 ,但 对 语义 的 表达 则 
有 限 , 且 需要 进行 多 层 , 大 量 ` 有 监督 的 筛选 ,筛选 原则 
及 聚 类 的 粒度 直接 影响 技术 主题 的 生成 5 ;@ 相 较 关 
键 词 ,SAO 语义 结构 能 识别 语 境 、 提 升 语义 的 表达 ,但 
在 大 数据 环境 中 ,以 SAO 结构 为 核心 的 方法 存在 降 维 
的 困难 "9 ;@ 以 LDA 为 代表 算法 的 主题 模型 能 够 挖掘 
大 量 文本 中 的 隐 含 语义 ,上 且 以 词 分 布 (可 视 为 词 篮 ) 的 
形式 来 表达 概念 可 以 避免 同义词 带 来 的 歧义 , 因而 在 
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表 1 突破 性 创新 特征 归纳 


特征 特征 解释 
新 颖 性 /前 瞻 性 /前 沿 性 与 新 兴 技术 主题 的 新 颖 性 异曲同工 ,代表 着 前 沿 的 技术 发 展 与 进步 [8 10, 5 361 
突变 性 突破 性 创新 标志 性 特征 之 一 。 突 破 性 创新 的 发 生 是 非 渐进 式 的 ,技术 变革 强度 大 ,往往 出 现 了 大 幅度 的 创新 或 程度 较 大 
的 进步 性 改变 [8 06 38] 
高 影响 力 突破 性 创新 是 其 他 技术 产品 以 及 服务 等 的 基础 ,通常 会 对 市 场 或 行业 格局 以 及 科学 研究 产生 重要 影响 力 010, 25. 271 
学 科 交 叉 性 突破 性 创新 通常 融合 不 同 的 科学 技术 原理 ,建立 在 全 新 的 知识 基础 之 上 ,是 多 学 科 交 互 作用 、 众 多 知识 领域 重组 的 结果 ， 
特别 是 通常 不 发 生 相 互联 系 的 知识 领域 之 间 发 生 了 重组 ,更 可 能 产生 突破 性 创新 [8, 3, 09 -40] 


不 连续 性 和 非 线 性 相对 于 渐进 性 创新 .连续 性 创新 


而 言 ,突破 性 创新 在 技术 或 市 场 .产品 .商业 模式 等 发 生 的 变化 是 不 连续 的 
发 生出 现 - 消亡 - 再 出 现 的 反复 过 程 ,技术 好 


FE 线性 的 ,会 


4 道 在 演化 过 程 中 发 生 不 连续 跳跃 [4 -43] 


长 期 性 突破 性 创新 一 般 周 


长 ,需要 长 吉 


不 确定 性 和 不 可 预测 性 


也 很 难 预测 技术 的 发 展 方向 [42 41 


发 散 性 


的 培育 过 程 ,所 需 平均 完成 时 间 一 般 为 10 年 以 上 [36, 42, 441 
突破 性 创新 的 发 生 在 技术 市场 资源 及 组 织 等 多 方面 具有 不 确定 性 ,并 且 其 往往 在 新 的 技术 轨道 上 发 展 ,难以 事前 识别 ， 


主要 表现 为 思想 产生 的 发 散 性 ,不 是 遵循 原 有 的 方法 与 路 径 [2] 


随机 性 和 偶然 性 罕 破 性 创新 的 产生 并 不 是 预 设 好 的 ,其 


JL10 年 中 被 广泛 用 于 主题 抽取 研究 。 但 是 ,由 于 LDA 


EAE" ,但 在 实际 研究 中 往往 需要 学 者 们 继续 对 主 
题 进行 评价 或 第 选 来 平衡 主题 的 可 读 性 。 
〇 在 主题 抽取 之 后 ,揭示 科研 主题 的 演化 过 程 . 规 律 
邦 如 轨 对 于 把 所 领域 发 展 趋势 以 及 突破 性 创新 主题 的 
探测 均 具 有 重要 意义 。 早 在 20 多 年 前 , R，Watts 和 
AC Porter 1 便 提出 了 以 统计 关键 词 变化 的 方式 来 探索 
技 坟 主题 的 演化 ,虽然 并 未 考虑 词 对 之 间 更 深层 的 语 
泌 奖 系 , 但 为 后 续 主 题 演 化 分 析 英 定 了 基础 。 针 对 关 
键 往 不 能 揭示 技术 主题 之 间 的 关联 关系 这 一 问题 , 基 
:可 文 的 演化 分 析 方法 采用 测度 对 象 之 间 的 相互 引用 
信和 晴 来 探测 领域 的 技术 主题 及 演化 趋势 ”。 但 以 引 
文 为 核心 的 分 析 方法 无 法 真正 从 语义 内 容 的 角度 深入 
分 析 技 术 的 演化 和 变革 ,近年 来 基于 科技 文本 挖掘 的 
主题 演化 研究 受到 越 来 越 多 研究 人 员 的 关注 。 
1.3 ”突破 性 创新 主题 识别 方法 

现 有 突破 性 创新 主题 识别 主要 围绕 着 文献 计量 、 
文本 挖掘 和 网 络 分 析 三 个 视角 展开 。 文献 计量 视角 
下 ,基于 引文 分 析 的 突破 性 创新 主题 识别 方法 以 引文 
表征 技术 创新 的 知识 组 成 ,并 以 引用 关系 表征 文献 之 
间 的 知识 转移 。 研 究 人 员 主 要 通过 专利 被 引 数量 咏 、 
专利 科学 引文 数量 5 .引文 新 颖 性 5o .引文 曲线 特 
ME .引文 关键 词 或 共 词 网 络 等 ”站 构建 相关 指标 识 
别 突破 性 创新 。 此 外 ,该 视角 下 , 共 词 分 析 相关 方法 利 
用 词语 的 频率 追踪 学 科 或 技术 领域 的 主题 变化 ,也 在 
已 有 研究 中 被 用 来 识别 突破 性 创新 。 例 如 ,村 Klein- 
berg 等 通过 不 同时 间 段 内 词 频 变化 率 确定 各 阶段 突 发 


往往 产生 于 许多 偶然 和 随机 出 现 的 新 思想 [1 


司 ,进而 通过 突 发 词 状 态 变 化 探寻 新 的 研究 热点 ”1。 
近年 来 ,文本 挖掘 与 网 络 分 析 相 关 方法 也 在 突破 性 创 
新 主题 识别 领域 广 受 关注 ,研究 人 员 借 助 于 自然 语言 
处 理 技术 对 科技 文献 和 专利 文献 中 的 关键 词 或 主题 进 
行 挖掘 分 析 , 同 时 依托 引文 网 络 发 挥 复杂 网 络 理论 与 
方法 的 优势 ,实现 对 突破 性 创新 主题 的 识别 与 控 
3i. 。 例 如 ,J Yoon 等 基于 SAO 计算 专利 文本 相似 
度 寻 找 离 群 专利 ,用 其 来 表征 突破 性 技术 创新 "。N. 
Shibata 等 把 论文 的 引用 网 络 视 为 一 种 复杂 网 络 ,对 比 
ATRAER GaN) 和 复杂 网 络 两 个 领域 ,并 在 引用 网 
络 聚 类 基础 上 ,通过 节点 的 模块 内 部 度 和 参与 系数 识 
别 两 个 领域 中 的 渐进 性 创新 和 分 贫 创 新 ( 突破 性 创新 
的 一 种 )  。 

总 体 来 说 ,虽然 文献 计量 学 方法 高 效 . 直 接 ,但 存 
在 引文 时 湿性 .未 深入 语义 层面 . 尚 停留 在 对 主题 的 静 
态 文献 计量 特征 进行 描述 性 研究 等 相关 问题 。 文 本 挖 
掘 在 探究 隐 含 的 语义 关系 方面 有 一 定 优势 ,但 不 论 是 
以 关键 词 为 核心 还 是 基于 主题 模型 的 主题 抽取 方式 ， 
在 计算 主题 相似 度 方面 都 存在 固有 问题 ,很 难 直 接 测 
度 技术 演化 并 进行 与 演化 相关 的 特征 分 析 。 最 后 , 复 
杂 网 络 相关 指标 的 引入 为 突破 性 创新 识别 研究 拓展 了 
拓扑 性 质 测度 的 新 视角 ,不 论 是 引文 网 络 或 者 语义 网 
络 ,都 可 以 通过 展现 知识 结构 来 更 好 识别 突破 性 创新 。 
基于 已 有 研究 ,本 文 综合 运用 文本 挖掘 视角 与 网 络 分 
析 视 角 , 并 将 主题 演化 纳入 方法 体系 ,考虑 时 间 因 素 展 
示 主 题 的 动态 变化 ,在 深入 挖掘 知识 结构 特征 的 基础 
上 ,综合 突破 性 创新 多 项 特征 进行 主题 识别 。 


2 研究 方法 
本 文 同时 运用 主题 模型 . 词 嵌 人、 复杂 网 络 分 析 等 
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方法 ,基于 动态 主题 网 络 上 的 主题 演化 及 知识 结构 变 


间 窗 口 下 的 主题 向 量 矩 阵 ; 之 后 ,在 网 络 视角 下 ,本 文 


动 ,构建 起 “新 络 性 “突变 性 “影响 力 ” 和 “学 科 交 
又 性 ”的 层次 指标 体系 ,对 突破 性 创新 主题 进行 识别 ， 
整体 研究 框架 如 图 1 所 示 。 本 文 以 多 个 时 间 窗 口 下 的 
科研 论文 数据 为 数据 源 , 在 数据 预 处 理 后 ,首先 通过 主 
题 模 型 提取 不 同时 间 窗 口 下 的 主题 集合 ,并 利用 


定义 不 同时 间 窗 口 下 主题 的 演化 状态 ,反映 不 同 主题 
随时 间 推 移 而 新 生 、 演 化 、 融 合 以 及 消亡 的 过 程 ;最 后 ， 
在 分 析 动 态 主题 网 络 的 结构 特性 变化 及 知识 流动 的 基 
础 上 ,面向 突破 性 创新 的 “新 颖 性 “突变 性 “影响 力 ” 
及 "学科 交叉 性 "构建 起 层次 指标 体系 ,识别 突破 性 创 


Word2vec 将 其 映射 到 统一 的 向 量 空间 中 ,生成 不 同时 新 主题 。 
| ! 语料库 自然 语言 处 理 年 度 主题 词 表 
去 除 符号 、 数 字 t 
数据 获取 EU 词 形 还 原 ul 
及 预 处 理 移 除 停 用 词 : : 
E 移 除 学 术 常 用 词 O mm 
| 主题 数目 设 定 算法 | _ 主题 抽取 词 向 量 生成 | xl 
S | 主题 抽取 | 困惑 度 » LDA 中 Word2Vec 1 ”加 权 求 和 A T | 
1 1 i m | 
Ani E 
e | - | E a 
ue. Iz [| ESO am 主 || 演化 次 | 区 &[ 
1 相似 度 E: 态 评 估 | lw dE p 
网 P TEENS RS Bp 
网 络 构建 有 PT D eA Pu n 
eo E 络 | | 类 新 生 ) &l 
CN | cm Q;7r To — To | 
a 
> 特征 词 加 权 年 岭 |t| 词 离散 年 龄 关 
um | 新 颖 性 突变 性 
x< | aeree 突破 性 内 涵 与 REWE SERRE eT 
| 识别 特征 梳理 zx 4 
E RAR] 影响 力 接近 中 心性 结构 洞 
i. HESSE 学 科 多 样 性 
(S) 1 基于 动态 主题 网 络 的 突破 性 创新 主题 识别 研究 框架 


2.1 主题 抽取 及 向 量化 
2.1.1 基于 LDA 的 主题 抽取 

LDA 是 目前 应 用 最 为 广泛 的 主题 模型 之 一 ” ,其 
通过 随机 生成 过 程 来 抽取 文本 在 主题 空间 中 的 分 布 ， 
并 以 词 分 布 的 形式 表达 主题 概念 。 一 般 来 说 ,可 以 用 
随机 变量 的 联合 分 布 来 表示 LDA 的 生成 过 程 ,如 公 
式 (1) 所 示 : 

p(w,,2,,8,,0 | a, B) = II Pwan) | e, p, 
| G))pC8, | à) p C18) 公式 (1) 

其 中 ,2, 是 文档 d 的 主题 分 布 ,0, 是 对 应 的 主题 
比例 ,Z ,代表 第 d. 个 文档 中 第 nn 个 单词 的 主题 分 布 ， 
91.4 表 示 主 题 ,每 个 p, 是 一 个 词 分 布 ,总 计 KK 个 主题 ,a 
和 B 是 两 个 超 参 数 , 通 常 选 取 默 认 值 “!。 本 文 将 数据 
集 按 年 份 了 划分 ,在 多 个 时 间 窗 口上 分 别 训练 LDA 模 


型 ,得 到 了 个 文档 - 主题 概率 分 布 矩 阵 及 主题 - 词 概 
率 分 布 矩 阵 。 此 外 ,在 主题 提取 后 ,采用 词 分 布 概率 排 
序 及 人 工 校 验 的 方法 对 所 有 提取 的 主题 进行 命名 , 生 
成 主题 标签 ,为 后 续 演 化 状态 评估 打下 基础 。 

通过 LDA 主题 模型 进行 主题 提取 需要 预先 设 定 
主题 数目 K, 根 据 已 有 研究 ,本 文采 用 综合 困惑 度 ” 及 
人 工 解析 复杂 度 '” 双重 因素 的 方法 对 天 值 进行 设 定 ， 
如 公式 (2) 所 示 , 其 中 :Perplexity(D) 表 示 模 型 的 困惑 
度 , 计 算 方 法 如 公式 (3) 所 示 ;Complexity 表示 模型 结果 
的 解析 复杂 度 , 计 算 方法 如 公式 (4) 所 示 。 困 惑 度 的 
值 越 小 表明 模型 与 数据 的 拟 合 程度 越 好 ,而 较 小 的 人 
工 解析 复杂 度 则 表明 解析 主题 内 容 的 复杂 度 相对 较 
低 ,本 文 综合 考虑 模型 效果 与 人 工 解 析 复 杂 度 确定 主 
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perplexity( K) — min perplexity ( K) 


complexity ( K) — min complexity ( K) 


arg min, f( K) = 


"|l 
Perplexity( D) =op] E E 公式 (3) 
(impar cap ( a = K) | 公式 (4) 


在 上 述 困惑 度 计算 公式 中 ,下 log(p(w) ) 表示 给 
定 训练 模型 在 测试 语料库 上 的 似 然 性 。 
2.1.2 基于 Word2vec 的 主题 向 量化 

为 了 更 有 效 地 计算 主题 相似 度 并 构建 动态 主题 网 
络 , 本 文 运用 Word2vec 算法 对 主题 进行 向 量化 。 作 为 
一 种 高 效 的 词 嵌入 技术 , Word2vec 能 够 捕捉 文本 中 词 
语 的 上 下 文 语 境 信息 ,并 将 词语 转化 为 包含 语义 关系 
的 低 维 稠密 实数 词 向 量 “ o Word2vec 的 具体 实现 模 
A 35 YE £18] 4S ( Continuous Bag-of-word Model ) 与 
Keran 模型 ,根据 已 有 研究 ,二 者 在 训练 效果 上 不 存 
在 显著 差异 “” 。 本 文 利用 skip-gram 模型 将 词汇 映射 
将 疗 量 ,结合 主题 发 现 的 结果 实现 文本 数据 的 语义 信 
演 取 与 向 量化 ,为 主题 网 络 及 指标 识别 模型 的 构建 


AEn WA, "E vi AE JS y 的 词 向 量 集合 V。 由 于 每 
个 辟 提 取 的 主题 具体 表现 为 p 上 概率 最 大 的 个 非 
重复 单词 ,以 每 个 词 对 应 的 概率 作为 权重 ,将 隶属 于 该 
主题 非 重复 单词 y 维 词 向 量 进行 加 权 平均 , 即 可 生成 
统 二 向 量 空间 中 该 主题 的 向 量 v CT) ,计算 方法 如 公 
ABER: 
v(T,,) = È; P(term, ;;)v(term, ;;) 公式 (5) 
其 中 ,v(7,,) 为 时 间 窗 口 1 下 第 i 个 主题 的 向 量 表 
Rus 为 该 主题 下 概率 排名 前 s 的 词语 数 ,P(term,，,) 表 
示 词 语 对 应 的 概率 值 ,v(term, ,) 表示 该 词语 对 应 的 词 
向 量 。 
2.2 ”动态 主题 网 络 构建 及 主题 演化 分 析 
2.2.1 主题 网 络 构建 
以 前 文生 成 主题 向 量 为 基础 ,本 文 利用 余弦 相似 
度 计算 同一 时 间 窗 口内 主题 之 间 的 语义 相关 程度 ,并 
基于 主题 节点 间 相似 度 均 值 保留 连 边 ,构建 每 个 时 间 
窗口 内 的 主题 网 络 ,具体 计算 如 公式 (6) 所 示 : 
Similarity, r, = cos (v (T), v( T,; re 
v(T,,)v(T,,) 
| v(T,,) | | " T.) | 公式 (6) 


其 中 ,7,,,7,, 表 示 主 题 ,v (7,,),v(7,,) 表 示 主 题 


max perplexity (K) — min perplexity( K) 


FA S= 
max complexity( K) — min complexity( K) 公式 (2) 


T, | T, B] [6] JE SX , Similarity, , RIER vT) v 
CT, ,) 之 间 的 相似 度 , 取 值 介 于 0 和 1 之 间 。 该 网 络 的 
节点 是 LDA 抽取 的 主题 ,而 每 一 个 主题 则 由 带 有 概率 
分 布 的 词 簇 来 表示 。 
2.2.2 主题 演化 状态 界定 

整体 来 看 ,识别 突破 性 创新 主题 ,需要 了 解 其 产生 
前 后 的 知识 状态 ,而 主题 演化 分 析 可 以 揭示 科技 创 
新 过 程 中 主题 的 新 生 .融合 演化 消亡 的 宏观 过 程 , 从 
而 为 突破 性 创新 主题 识别 提供 动态 视角 。 在 一 段 时 间 
内 发 表 的 某 个 领域 内 的 科研 文献 ,可 以 被 视 作 一 个 随 
时 间 延 续 而 发 展 的 动态 数据 集合 。 在 此 数据 集 上 , 主 
题 内 容 演化 关系 通常 表现 为 某 领域 内 的 主题 是 否 出 现 
过 , 何 时 出 现 , 与 其 他 哪些 主题 有 关联 ,关系 的 发 展 如 
何 , 即 是 否 新 出 现 ,或 同 其 他 主题 合并 , 亦 或 是 已 经 消 
Ks DY. Zhang 等 ”的 研究 为 基础 ,本 文 将 主题 随时 
间 窗 口 推移 产生 的 演化 状态 设 为 5 类 , 即 新 生 、 同 一 、 
衍生 融合 和 消亡 。 各 个 状态 的 具体 定义 如 下 : 

(1) 新 生 主 题 :新 出 现 的 主题 ,没有 任何 的 承 前 主 
题 ,与 先前 时 间 窗 口内 的 主题 仅 存在 较 低 或 者 零 相 

(2) 同一 主题 : 现 有 主题 与 后 续 主 题 关 联 性 极 高 ， 
两 者 的 相似 性 达到 阔 值 之 上 ,两 者 被 视 为 同一 个 主题 。 

(3) 衍 生 主题 :从 现 有 主题 衍化 而 出 的 新 主题 ,与 
当前 主题 存在 较 高 的 相关 性 但 并 不 十 分 相似 ,不 属于 
同一 主题 ,可 能 存在 一 对 多 的 关系 。 

(4) 融 合 主题 :融合 主题 与 多 个 前 置 主题 都 有 一 
定 的 相关 性 ,是 多 个 主题 共同 融合 的 结果 ,但 与 每 个 主 
题 都 不 十 分 相似 ,不 属于 同一 主题 。 

(5) 消 亡 主题 :后 续 时 间 窗 口中 所 生成 的 主题 与 
现 有 主题 均 不 存在 相关 性 ,或 者 相关 性 极 低 , 则 该 现 有 
主题 可 被 视 为 消亡 主题 。 

以 上 5 种 主题 演化 状态 示意 如 图 2 所 示 : 


pe 主题 内 容 演化 一 一 区 
To )—E— (qo ^ TC RN 
esed = ED Cma2) ^42 ) 
ODE DE 
á nct 
' 消亡 
Ps 
Omm 
s 89 Ce Qe D— Qe) 
时 间 
1 tl t+2 vi 


2 主题 演化 状态 示意 
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2.2.3. 演化 状态 测度 
合理 计算 主题 相似 性 是 识别 主题 演化 状态 变化 的 
基础 。 为 了 追踪 主题 在 不 同时 间 窗口 上 的 动态 变化 与 
发 展 ,需要 捕捉 动态 数据 集 每 个 时 间 窗口 内 对 应 的 主 
题 集 , 并 计算 相 邻 窗口 间 主题 集 的 相似 度 , 从 而 获悉 每 
个 主题 的 “来 源 " 与 “去 路 "。 因 此 ,在 识别 出 每 个 时 间 
窗口 上 的 主题 及 其 对 应 的 主题 向 量 后 ,本 文采 取 余弦 
相似 度 计 算 相 邻 时 间 窗 口 主题 在 语义 层面 的 相关 度 ， 
如 公式 (7) 所 示 : 
Similarty, r = cos (v (T), v (Tj;)) = 
v(T, )w(T,,,) 
Ie Ga] EV 
其 中 ,7 ,表示 1 时 刻 主 题 ,7,,, ,表示 t+1 时 刻 主 
Epal 7,,) wv(7,,,,) 分 别 表示 为 主题 7,,、7,,1, 的 向 量 
EF , Similarity, 表示 主题 v( 7,) CT, LIBE 
要 候 度 , 取 值 介 于 0 和 1 之 间 。 
人 = 本文 结 合 语义 相关 度 及 2.1.1 小 节 生 成 的 主题 标 
3 对 主题 演化 状态 进行 定量 测度 。 如 图 3 所 示 ,首先 
让 算 每 两 个 相 邻 时 间 窗 口 的 主题 相似 度 矩 阵 (以 下 简 
称 = 相 似 度 和 矩阵 ”) 的 上 四 分 位 数 (@, ) 与 中 位 数 (0,) 
主题 状态 临界 点 :当主 题 间 相似 度 达 到 0, DLE FL 
萎 题 标签 相同 时 , 则 视 两 个 不 同时 间 窗 口 下 的 主题 为 
“全 | "主题 ; 若 符合 0, 闵 值 条 件 但 未 满足 主题 标签 
要 来 ,二 者 之 间 存 在 强 相关 关系 , 视 为 衍生 或 融合 状 
DEAETE Q, 与 0, 之 间 , 亦 为 衍生 或 融合 状 
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3 演化 状态 界定 示意 


通过 演化 状态 定量 评估 ,本 文 依照 演化 关系 将 相 
邻 时 间 窗 口上 的 主题 网 络 进行 联通 , 即 以 主题 演化 关 
系 串 联 起 多 个 时 间 窗 口上 的 主题 网 络 ,形成 动态 主题 
网 络 Go G 可 以 表示 为 :6 = (G1,G6,,…,G,,…,G;) ,其 
中 G6, 为 时 间 段 1 内 的 主题 网 络 ,7 为 划分 的 时 间 窗 口 
数量 。 

2.3 ”指标 构建 

本 文通 过 对 突破 性 创新 内 涵 与 特征 的 梳理 ,构建 起 
测度 主题 “新 颖 性 “突变 性 “影响 力 ” 和 “学科 交叉 性 ” 
的 层次 指标 体系 ,基于 已 建立 的 动态 主题 网 络 ,全 面 考 
量 主题 在 时 间 窗 口内 的 结构 特性 以 及 在 时 间 窗 口 间 的 
演化 特征 ,从 而 对 突破 性 创新 主题 进行 识别 ,具体 的 层 


» € RiZ 
mH 


大 Sb Su RE 次 指标 体系 如 表 2 所 示 。 本 文 在 识别 突破 性 创新 主题 
JU. ME Q, 则 为 新 生 或 者 消亡 状态 。 p n 口 yog 
时 ,不 考虑 在 演化 过 程 中 的 消亡 主题 。 
E od R2 层次 指标 体系 
特征 指标 指标 内 涵 或 表征 意义 
新 颖 性 主题 词语 离散 年 龄 差 ”主题 年 龄 与 所 有 词语 平均 年 龄 的 离散 
主题 词语 加 权 年 龄 。 主题 包含 词语 的 加 权 平 均 年 龄 , 即 整 个 数据 集中 词 最 早出 现年 份 到 当前 时 刻 的 年 龄 差 , 权 重 为 词 分 布 的 概率 值 
突变 性 突变 性 相 邻 时 刻 主题 内 容 的 变化 程度 ,变化 程度 越 大 ,主题 突变 程度 越 高 
影响 力 点 度 中 心性 与 该 节点 关联 的 连 边 数 或 连 边 值 的 总 和 ,表明 节点 在 网 络 中 与 其 他 节点 的 连接 程度 
接近 中 心性 把 一 个 节点 与 网 络 内 其 它 节点 连接 起 来 的 绝 大 部 分 直接 路 径 都 是 短 的 ( 而 不 是 长 的 ) 的 程度 ,体现 了 节点 在 网 络 
中 所 占据 的 重要 位 置 
中 介 中 心性 网 络 中 经 过 某 个 节点 的 最 短路 径 数 目 占 最 短路 径 总 数 的 比例 ,反映 节点 在 网 络 中 的 影响 力 
结构 洞 两 个 节点 之 间 的 非 兄 余 的 联系 ,结构 洞 能 够 为 其 占据 者 获取 ”信息 利益 " 和 ”控制 利益 " 提供 机 会 ,因而 比 网 络 中 的 
其 他 成 员 更 具 优势 
学 科 交叉 性 学 科 多 样 性 不 同学 科 的 交叉 往往 孕育 着 新 的 科学 前 沿 与 重大 科学 突破 , 主题 包含 的 学 科 种 类 越 多 , 跨 学 科 程度 越 高 


2.3.1 基于 词语 年 龄 的 新 颖 性 测度 
在 测度 技术 主题 的 新 颖 性 时 ,本 文 以 主题 中 词语 


的 年 龄 为 核心 展开 测度 ,一 个 词 出现 的 时 间 越 晚 ,年 龄 
越 小 ,其 新 颖 程度 越 高 。 具 体 地 ,结合 已 建立 起 的 动态 


主题 网 络 ,采用 词语 离散 年 龄 差 ” 及 词语 加 权 年 龄 两 
个 指标 进行 主题 新 疾 度 的 定量 判断 ,并 通过 烂 权 法 对 


其 进行 拟 合 ,得 到 综合 的 新 颖 性 值 (Topic Novelty) 。 词 
语 离散 年 龄 差 Topic Discrete Age Difference ( TDA ) [58] 
的 具体 计算 如 公式 (8) 所 示 : 


公式 (8 ) 
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其 中 ,由 于 主题 i 在 多 个 时 间 窗 口上 动态 变化 ,7 
表示 该 主题 从 新 生 到 最 后 一 个 时 间 窗 口 所 历经 的 年 份 
总 数 (时 间 窗 口 总 数 ) ,N 为 集合 中 词 的 总 数 ,n 表示 主 
题 i 下 概率 排名 靠 前 的 词 数 量 ,7 为 在 整个 数据 集中 ， 
词语 出 现 的 最 早年 份 。TDA 有 正 负 之 分 , 值 越 大 ,主题 
中 主要 词语 的 出 现时 间 越 晚 ,主题 新 颖 度 越 高 。 

词语 加 权 年 龄 Topic Weighted Age (TWA ) 则 以 测 
度 主 题 中 主要 词语 的 年 龄 为 基础 ,用 词 概率 加 权 求 和 
主题 中 主要 词汇 从 最 早出 现年 份 到 当前 时 刻 的 年 龄 
差 ,具体 计算 如 公式 (9) 所 示 : 
QUUD dcs 

其 中 ,7, 表示 主题 i 在 演化 过 程 中 经 历 的 时 间 窗 
D 总 数 ,n 为 主题 i 下 概率 排名 靠 前 的 词 数量 ,P(w,) 
对 应 词 的 概率 值 ,Z 为 词 j 的 年 龄 , 即 整个 数据 集中 
访 同 语 最 早出 现 的 年 份 到 当前 时 刻 的 时 间 差 。TWA 
越 大 ,主题 新 颖 度 越 高 。 
基于 主题 相似 性 的 突变 性 测度 


TWA, 


口 总 数 , 表示 时 间 窗 口上 :下 与 主题 有 连 边 的 主题 数 
量 ,该 值 越 大 ,表示 主题 的 影响 力 越 高 。 

(2) 接 近 中 心性 可 通过 主题 网 络 中 主题 节点 i 到 
其 他 所 有 主题 节点 最 短路 径 的 平均 长 度 进行 计算 ,如 
公式 (12) 所 示 “” ; 


公式 (12) 


其 中 ,d, 表 示 主 题 i 到 主题 j 的 最 短 距离 ,7, 表示 
主题 ; 经历 的 时 间 窗 口 总 数 ,该 值 越 大 ,表明 节点 位 于 
网 络 中 心 位 置 的 程度 越 大 ,表示 主题 的 影响 力 越 高 。 

(3) 中 介 中 心性 表现 为 主题 网 络 中 经 过 某 个 主题 
节点 的 最 短路 径 数 目 占 最 短路 径 总 数 的 比例 ,如 公式 
(13) rz ; 


X,(N-1)/XL,d;) 
C,(i) = 一 


T, jzizkeV,«k" jk | / ik B 
opli) = tene tu 8 公式 (13) 
其 中 ,7 代表 主题 i 在 演化 过 程 中 经 历 的 时 间 窗 
口 总 数 ,0 (站 ) 为 时 间 窗口 :下 ,节点 j 与 之 间 最 短路 
笃 通 过 节点 i 的 数目 ,0 为 节点 j 与 之 间 所 有 最 短路 
zs 


< 以 前 文 计算 得 出 的 主题 向 量 为 基础 ,本 部 分 基于 


窒 芝 理论 设置 主题 突变 度 指 标 (Topic Mutation) ,主题 
程度 越 高 ,表示 该 主题 突变 程度 越 大 ,反之 则 越 


DT ALES 
N E v(T,,) - UT D 
M, - X.,1 LIoCT,.) HE iiscr on 
公式 (10) 


CJ, T, 仍然 表示 主题 i 在 演化 过 程 中 经 历 的 时 
WEE E, oT) v(7,,1,) 分 别 为 主题 i 在 相 邻 时 
间 国 口上 主题 向 量 , 该 值 越 大 ,表示 主题 的 变化 程度 
越 高 。 

2.3.3. ”基于 网 络 指标 的 影响 力 测度 

在 网 络 分 析 中 ,网 络 中 心性 常 被 用 于 度量 节点 在 
网 络 中 的 影响 力 , 相 关 指标 包括 接近 中 心性 、 介 数 中 心 
性 以 及 度 中 心性 等 ” ,而 结构 洞 常 被 用 于 衡量 节点 的 
关键 位 置 ,本 文选 取 中 心性 及 结构 洞 来 分 别 测度 主题 
影响 力 , 并 通过 坑 权 法 进行 拟 合 ,得 到 综合 性 主题 影响 
力 值 (Topic Influence) 。 本 小 节 基 于 2.2.1 构建 的 主 
题 网 络 进行 指标 计算 ,具体 如 下 : 

(1) 点 度 中 心性 可 通过 主题 网 络 中 与 主题 节点 i 
相连 的 边 数 与 同 节点 i 可 能 相连 最 大 边 数 之 比 进行 计 
$t AED Bo : 

Dom ala 公式 (11) 


中 ,7; 表示 主题 i 在 演化 过 程 中 经 历 的 时 间 窗 


N 
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径 的 总 数 ,该 指标 反映 节点 在 网 络 中 的 影响 力 , 值 越 
大 ,表示 主题 的 影响 力 越 高 。 

(4) 结 构 洞 相关 研究 中 ,通常 以 网 络 约束 系数 来 
计算 各 节点 所 占有 的 位 置 优势 ,以 其 描绘 某 节点 与 其 
他 节点 直接 或 间接 联系 的 紧密 程度 ,该 值 越 小 ,结构 洞 
越 多 ,位 置 越 重要 ,该 节点 越 具有 获取 多 样 化 知识 的 能 
力 ,是 潜在 的 创新 节点 “ 。 本 文 利用 UCINET 软件 计 
算 主题 i 在 演化 过 程 中 ,每 个 时 间 窗 口上 ,主题 网 络 中 
结构 洞 约 束 系数 ,并 以 i 在 演化 过 程 中 经 历 的 时 间 窗 
口 总 数 进行 加 和 平均 ,最 终 得 到 多 个 窗口 下 主题 i 的 
结构 洞 约 束 系 数 。 

2.3.4 基于 学 科 分 类 的 学 科 交 叉 性 测度 

不 同学 科 的 交叉 点 往往 是 新 科学 的 生长 点 和 新 的 
科学 前 沿 ,也 最 有 可 能 产生 重大 科学 突破 '”' 。 根 据 已 
有 研究 ,本 部 分 基于 Web of Science 的 学 科 分 类 (Web 
of Science Category) 来 计算 动态 网 络 上 主题 的 学 科 交 
又 程度 。 由 于 每 篇 论文 隶属 于 一 个 或 多 个 学 科 , 同 时 
涵盖 兰 干 个 主题 , 即 每 个 主题 下 不 同学 科 的 贡献 程度 
有 所 差异 ,本 文 提 出 学 科 多 样 性 (Topic Subject Diversity ) 
指标 ,用 以 表征 主题 的 学 科 交 又 性 。 该 值 越 大 ,表示 主 
题 包含 的 学 科 种 类 越 多 , 跨 学 科 程度 越 高 ,计算 方法 如 
公式 (14) 所 示 : 


5 a P(d S(d,; 
Eia PL) Su) 
CINE CES 


其 中 ,7, 表示 主题 i 在 演化 过 程 中 经 历 的 时 间 窗 


TST, = 二， 


公式 (14) 
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口 数量 ,h RRR D t FXR, PCa) 表示 
时 间 窗口 :中 第 i 个 主题 下 第 m 个 文档 属于 该 主题 的 
概率 ,S(d,;,) 表 示 时 间 窗口 :下 第 m 个 文档 包含 的 学 
科 数 量 ,$ 表示 WoS 中 的 学 科 分 类 总 数 。 


3 ”实证 分 析 


区 块 链 作为 当前 信息 技术 的 前 沿 领 域 之 一 ,以 其 
基础 性 .引领 性 和 创新 性 等 特征 ,不断 激发 . 赋 能 和 提 
速 数字 经 济 发 展 ,对 当前 的 信息 技术 形成 了 全 方位 . 战 
略 性 影响 。 下 文 以 区 块 链 领域 为 例 , 对 其 相关 科研 论 
文 数据 进行 较为 全 面 的 采集 ,开展 基于 动态 主题 网 络 
的 突破 性 创新 主题 识别 ,验证 本 文 方法 及 相关 研究 工 
作 的 可 行 性 及 有 效 性 。 
33k- 数据 获取 

和 区 块 链 作为 高 速 发 展 的 前 沿 领域 ,有 关 其 检索 策 
星 询 未 达成 共识 , 现 有 研究 大 多 以 “区 块 链 ” 或 "block- 
on” 或 “biteoin” 为 关键 词 进 行 中 英文 文献 检索 。 本 

;通过 梳理 区 块 链 领 域 相关 文献 ,在 商 琦 和 陈 洪梅 
构建 的 检索 策略 基础 上 进行 改进 ,得 到 检索 策略 如 下 : 
T$-2 ( " chain of block * " OR "blockchain * " OR " 
b chain * " OR "genesis block * " OR " Bitcoin" OR 
"EBereum" OR " Consensus mechanism * " OR " proof of 
SM. " OR " proof-of-work x " OR " proof of stake * " 
og? proof-of-stake  " OR " Byzantine Fault Toleran * " 
RE Proof of Authority" OR " Proof-of-Authority" OR 
Distributed ledger * " OR " smart contract * " OR " asym- 
"区 encryption * ") 。 应 用 以 上 检索 式 , 本 文 在 Web of 
Scieace 的 SCI 以 及 SSCI 数据 库 中 ,检索 2011 - 2020 年 


的 英文 期 刊 与 会 议 文献 ,总 计 获 得 10 817 条 数据 。 为 
进一步 提高 数据 准确 性 ,对 下 载 文 献 通过 人 工 干预 移 
除 少 量化 学 .材料 学 .免疫 学 .细胞 学 和 药学 以 及 其 他 
与 区 块 链 核 心 内 容 相关 性 较 弱 的 数据 条 目 '“ ,得 查 之 
后 保留 区 块 链 相关 数据 9 805 条 ,形成 该 领域 突破 性 
创新 主题 识别 的 初始 语料库 。 图 4 展示 了 区 块 链 领 域 
论文 的 年 度 发 表 数 量 。 可 以 看 出 ,前 期 相关 文献 数量 
较 少 , 且 增 速 相 对 平缓 , 自 2016 年 文献 数量 开始 大 幅 
增加 。 


c 
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3.2. 动态 主题 网 络 构建 

为 了 仅 保留 和 区 块 链 技术 最 为 直接 相关 的 文本 内 
容 , 本 文通 过 自然 语言 处 理 对 初始 语料库 中 的 标题 和 
摘要 字段 进行 清洗 , 移 除 停 词 ( Stopwords ) 及 常用 语 等 
内 容 。 而 后 ,以 年 为 单位 ,建立 2011 年 至 2020 年 10 
个 时 间 窗 口 ,并 按照 时 间 窗 口 划 分 文本 集 。 对 于 每 个 
窗口 下 的 文本 集 ,本 文平 衡 困惑 度 及 人 工 解 析 复 杂 度 ， 
将 10 个 阶段 的 主题 数量 开设 置 为 :7、10、12、14 15、 
25 .25 25,30 及 25。 因 篇 幅 原 因 , 本 文 仅 展示 2020 年 
时 间 窗 口 下 主题 总 数 参 数 的 确定 过 程 ,其 余 时 间 窗 口 
下 计算 逻辑 相同 ,如 图 5 Bron : 


2351 1.001 
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2.251 
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rum topic 


S ”主题 数量 确定 流程 ( 以 2020 年 文本 集 为 例 ) 


而 后 ,本 文采 用 2 000 次 Gibbs 采样 迭代 来 推断 潜 


窗口 大 小 设置 为 5。 根 据 2.1.2 给 出 的 方法 ,每 个 时 


在 变量 和 分 布 , 以 提取 每 个 时 期 的 主题 ,并 采用 词 分 布 
概率 排序 及 人 工 校 验 的 方法 对 各 个 网 络 中 的 主题 进行 
命名 ,生成 主题 标签 ;同时 ,使 用 Python Genism 工具 包 
在 整体 语料库 上 训练 词 向 量 , 维 度 参数 y 设置 为 150， 


间 窗 口 下 的 主题 都 被 转化 成 了 统一 向 量 空 间 内 维度 为 
150 维 的 向 量 。 本 文通 过 公式 (6) 计 算 主 题 相 关 和 矩阵 ， 
构建 各 时 期 的 主题 网 络 ,如 图 6 所 示 ( 由 于 篇 幅 限 制 ， 
这 里 仅 展 示 时 间 徐 口 1 与 10 对 应 的 主题 网 络 ) 。 


52 


陈 虹 枢 , KEZ, ARR, F. 
66(10) :45 —58. 


逊 


TET. 
态 主题 网 络 视角 下 的 突破 性 创新 主题 识别 :以 区 块 链 领域 为 例 GP paure IFT 


Tolerant 


Byzantin 


(a) 2011 年 主题 网 络 


[为 了 追踪 主题 在 不 同时 间 窗口 下 的 动态 变化 与 发 

文 随后 计算 相 邻 时 间 窗 口 间 主题 集 的 相似 度 , 识 
别 玉 块 链 领域 内 每 个 主题 的 “来 源 " 与“ 去路" 。 基 于 
世 弛 计算 得 出 的 主题 向 量 , 本 部 分 采用 余弦 相似 度 共 
RRO 个 表示 相 邻 时 间 窗 口 主题 集合 变化 的 相关 性 算 
降 并 通过 计算 上 四 分 位 数 (Q, ) 与 中 位 数 (Q, ) 对 主题 
大 再 品 间 的 演化 状态 进行 定量 评估 。 基 于 演化 状态 测 
RRR EIAM 10 年 中 ,区 块 链 领域 共 出 现 了 87 个 


(b) 2020 年 主题 网 络 


图 6 主题 网 络 


不 重复 的 主题 ,涵盖 所 有 的 新 生 、 同 一 、 衍 生 、 融 合 和 消 
亡 状态 ,它们 的 演化 过 程 如 图 7 所 示 。 其 中 , 实 线 表示 
同一 主题 ,虚线 表示 衍生 或 者 融合 状态 , 深 灰 色 节 点 表 
示 消 亡 主 题 。 从 图 7 中 可 以 看 出 ,从 2016 年 开始 主题 
数量 增多 ,2019 年 演化 出 更 多 研究 主题 ,大 多 主题 都 
出 现 了 衍生 或 者 融合 状态 ,各 主题 处 于 动态 变化 之 中 ， 
衍生 或 者 融合 演化 是 该 领域 内 知识 流动 的 常态 。 
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3.3 ”突破 性 创新 主题 识别 

基于 动态 主题 网 络 ,运用 2.3 小 节 中 的 指标 计算 

方法 ,可 得 到 每 个 主题 的 “新 蜂 性 “突变 性 “影响 力 ” 

和 “学 科 交 叉 性 ”指标 值 ,并 进行 标准 化 处 理 ,将 其 统 

一 映射 到 [0,1] 区 间 内 ,如 表 3 所 示 。 根 据 各 指标 均 

值 ,本 文 将 2020 年 现存 的 25 个 主题 ( 见 表 4) 划 分 为 
表 3 2020 年 25 个 主题 “新 颖 性 “突变 性 “影响 力 ” 和 "学 科 交 叉 性 ”指标 值 


16 个 类 别 ,分 别 表征 各 主题 在 4 个 维度 指标 上 的 整体 
特性 。 其 中 有 2 个 主题 属于 新 颖 性 高 、 突 变性 高 .影响 
力 大 学 科 交 又 性 强 的 类 别 ,被 识别 为 突破 性 创新 主 
题 ,分别 为 神经 网 络 (2020 — T6 - Neural Network ) 和 边 
缘 计 算 (2020 - T8 - Edge Computing) 。 


主题 新 颖 性 ”突变 性 ”影响 力 ”学科 交叉 性 主题 新 颖 性 ”突变 性 ”影响 力 ”学科 交 叉 性 
Distributed Ledger 0.1518 0.9593 0.7012 0.7983 Cloud Storage 0.0442 0.5788 0.7164 0.8145 
Product Traceability 0.1487 | 0.90365 0.4842 0.7883 Mining 0.1008 0.8805 0.4040 0.8052 
Byzantine Fault Tolerant 0.0687 | 0.9001 0.5071 0.8077 IoT 0.0086 | 0.0714 0.6681 0.8678 
Communication 0.0590 0.7525 0.7830 0.8145 Process Management 0.0877 0.8516 0.7279 0.8317 
Cryptocurrency 0.3136 0.7739 0.1084 0.6064 Voting 0.2297 0.57.85 0.5905 0.8258 
S Consensus Algorithm 0.0551 0.7912 0.5221 0.8431 Query 0.0429 0.7102 0.5336 0.7955 
e Neural Network 0.5115 1.0000  À 0.6398 0.7990 Smart Contract 0.03899 0.0557 0.2928 0.8064 
Co Financial Market 0.2734 0.7525 0.6066 0.6643 Energy 0.1042 0.1231  À 0.3056 0.0000 
E Edge Computing 0.2601 0.8413 0.6789 | 0.8445 Healthcare 0.1974 0.6782  Á 0.3515 0.8201 
e Digital Service 0.0475 0.6742 0.9501 0.8645 Token 0.0841 | 0.9018 0.7354 0.8183 
" 
er Supply Chain 0.9525 0.0000 0.0257 1.0000 Auction 0.0685 0.2077 0.8503 0.8718 
— Software 0.0916 0.7196 0.7081 0.8165 Signature 0.0464 0.6961 0.5334 0.7978 
N Trust ( Mechanism) 0.0525 0.7973 0.7609 0.863 8 均值 0.1656 0.6493 0.5674 0.7826 


= 表 4 2020 年 主题 的 标签 ,主要 内 容 与 突破 性 创新 特征 测度 


T 
=p n dus ; A 新 颖 突变 影响 CERE 
Ae 局 部 标号 主题 标签 主要 内 容 ee 
T67 -2018 2020 - TO Distributed Ledger distribute, ledger, payment, scalability, DLT, application 低 高 高 高 
“PO -2020 2020 - TI Product Traceability product, industry, supply chain, food, traceability 低 高 低 "n 
(91) - 2020 2020 - T2 Byzantine Fault Tolerant event, byzantine fault tolerant ( BFT) , attack, consensus, byzantine 低 高 低 高 
T80 -2019 2020 - T3 Communication communication, terminal, module, blockchain-base, efficiency 低 高 高 高 
T50 -2016 2020 - T4 Cryptocurrency market, cryptocurrencie, price, return, cryptocurrency 高 高 低 低 
T46 -2016 2020 - T5 Consensus Algorithm node, block, consensus, protocol, consensus, algorithm 低 高 低 高 
T92 -2020 2020 - T6 Neural Network ICO, neural network , algorithm, neuron, computing power 高 高 高 高 
T74 -2018 2020 - T7 Financial Market money, financial market, bitcoin, USD, price movement 高 高 高 低 
T93 -2020 2020 -T8 Edge Computing edge, algorithm, edge_computing, mobile, AI 高 HT 高 高 
T59 -2017 2020 - T9 Digital Service digital, trust, service, agent, blockchain-base 低 高 高 高 
T70 -2018 2020 - TIO Supply Chain adoption, supply chain, SC (supply chain) , management, tourism 高 低 低 高 
T94 -2020 2020 -T11 Software attack, SDN ( Software defined network ) , distribute, software, transmission 低 高 高 高 
T95 -2020 2020 -T12 Trust ( Mechanism) trust, service, content, user, mechanism 低 高 高 "n 
T60 -2017 2020 - T13 Cloud Storage cloud, service, user, image, cloud_storage 低 低 高 高 
T94 -2020 2020 - T14 Mining miner, mining, game, mining_pool, revenue 低 高 低 高 
T66 -2017 2020 -T15 IoT IoT, device, security, smart, IoT_device 低 低 高 高 
T99 -2020 2020 - T16 Process Management application, process, management, service, industry 低 高 高 高 
T71 -2018 2020 -T17 Voting block_chain voting, credit, process, vote 高 低 高 高 
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Chips NB TERT 


(BE 4) 
z UR EZ ; Js 新 颖 ”突变 影响 CERE 
全 局 标号 ”局 部 标号 题 标签 主要 内 容 性 性 J 交叉 性 
T76 -2019 2020 - TI8 Query query, security, protocol, set, message 低 i 低 高 
T49 -2016 — 2020 - TI9 Smart. Contract smart, contract, contract, ethereum, execution, cost 低 低 低 高 
T41 -2016 2020 - T20 Energy energy, trading, power, market, energy_trading 低 低 低 低 
T36 -2016 2020 -T21 Healthcare security, healthcare, user, medical, storage 高 局 低 RI 
T98 -2020 2020 - T22 Token user, token, social, ethereum, application 低 I 高 局 
T86 -2020 2020 - T23 Auction insurance, auction, financial, fraud, framework 低 低 高 局 
T77 -2019  2020- T24 Signature signature, content, algorithm, digital, key 低 P 低 高 
主题 6 神经 网 络 (2020 - T6 - Neural Network) E | 机 、 企 业 提 高 竞争 力 的 关键 要 素 。 准 确 地 识别 突破 性 


要 涵盖 首次 代 币 发 行 (ICO) 、 神 经 网 络 、 算 法 、 算 力 等 
内 容 , 涉 及 金融 领域 中 神经 网 络 算法 与 区 块 链 技术 
的 融合 应 用 。 从 已 有 区 块 链 相关 研究 可 以 验证 该 主 
题 的 突破 性 创新 属性 :区 块 链 + 神经 网 络 可 以 有 效 
VERE X oae ett RU EAE E 
ABAF ENA 题 ,能 够 为 实体 经 济 发 展 和 实现 数字 
2 ou a 
破 性 进展 在 近年 来 得 到 广泛 关注 '““) 。 美 国 国家 科 
ARREN 会 ( National Science and Technology Coun- 
oDYSTC) 于 2022 年 2 月 发 布 了 新 一 版 关键 和 新 兴 
手术 ( Critical and Emerging Technologies, CETs ) 清 
mise ,将 分 布 式 记 账 技术 (区 块 链 技术 ) 纳入 金融 技 


iu 充分 体现 了 其 重要 程度 和 两 个 领域 的 快速 
M E o 
c 8 边缘 计算 (2020 - T8 - Edge Computing) E 


要 涉及 边缘 计算 ,移动 边缘 计算 ,边缘 人 工 智能 计算 等 
内 句 。 已 有 相关 研究 显示 ,边缘 计算 能 够 为 区 块 链 服 
务 提供 资源 ,主要 包括 通信 资源 和 计算 资源 ,区 块 
链 技 术 负 责 保障 安全 ,边缘 计算 负责 提高 通信 效率 。 
2020 年 ,中国 移 动 发 布 (区 块 链 + 边缘 计算 技术 日 皮 
书 》, 指 出 “区 块 链 + 边缘 计算 ”的 融合 应 用 作为 通信 
和 信息 技术 融合 发 展 的 新 领域 ,能 够 促进 资源 共享 .最 
优化 配置 以 及 跨 界 协同 和 创新 ,加 快 社会 信息 化 转型 
研究 前 景 广阔 。 此 外 ,美国 国家 科学 技术 委员 会 发 
布 的 CETs 清单 将 边缘 计算 列 为 先进 计算 的 代表 ,这 也 
在 一 定 程度 上 验证 了 本 文 识别 结果 的 有 效 性 。 总 体 看 
来 ， 区 块 链 + ”产业 融合 模式 迅速 发 展 ,在 为 各 领域 
带 来 深刻 变 划 的 同时 ,也 标志 着 区 块 链 发 展 进入 3.0 
时 代 “ ,开启 了 全 新 的 发 展 阶段 。 


4 ”总 结 与 展望 
突破 性 创新 是 国家 在 产业 革命 浪潮 中 把 握 制胜 先 


c 


创新 主题 能 够 为 国家 政策 制定 及 企业 战略 布局 提供 决 
策 支 持 ,为 学 界 聚 焦 研 究 重 点 指明 方向 。 归 纳 总 结 已 
有 研究 ,突破 性 创新 主题 需要 通过 动态 视角 进行 分 析 ， 
且 揭 示 科 研 主 题 的 动态 演化 过 程 、 规 律 和 态势 对 于 突 
破 性 创新 主题 的 探测 具有 至 关 重 要 的 意义 。 本 文 以 多 
个 时 间 窗 口 下 的 科研 论文 数据 为 数据 源 ,综合 运用 概 
率 主题 模型 与 词 租 入 的 方法 进行 主题 的 抽取 与 向 量 
化 ,首先 克服 了 以 关键 词 为 核心 的 主题 识别 方式 在 语 
义 表达 上 存在 盲点 和 筛选 及 降 维 困难 等 问题 ,完成 了 
科技 文本 到 数学 向 量 的 映射 。 随 后 ,本文 在 连续 时 间 
窗口 下 构建 起 动态 主题 网 络 ,全 面 考量 主题 在 时 间 窗 
oou at 并 构 
建 起 测度 主题 “新 颖 性 ”"“ 突 变性 “影响 力 ” 和 “学 科 
ee a dn 
别 。 从 方法 上 看 ,动态 主题 网 络 下 的 突破 性 创新 主题 
识别 研究 是 对 现 有 基于 文本 挖掘 和 网 络 分 析 视 角 方 法 
的 重要 补充 。 

从 结果 上 看 ,本 文 使 用 2011 - 2020 年 区 块 链 领域 的 
科研 文献 数据 ,识别 出 2 个 突破 性 创新 性 质 最 为 显著 的 
主题 , 即 神经 网 络 和 边缘 计算 ,并 结合 该 领域 已 有 研究 
及 技术 清单 验证 了 方法 的 有 效 性 。 但 是 ,本 文 存在 一 定 
的 不 足 及 继续 研究 的 空间 。 首 先 ,在 动态 主题 网 络 的 视 
角 下 ,没有 构建 起 定量 的 结果 验证 方法 ;其 次 ,本 文 目前 
仅 考 虑 了 科研 文献 数据 ,数据 来 源 单一 ,需要 在 研究 中 
进一步 拓展 数据 维度 ,并 将 突破 性 创新 的 更 多 特性 映射 
到 多 源 、 异 质 的 动态 主题 网 络 之 上 ;最 后 ,本 文 的 方法 仪 
在 区 块 链 领 域 进行 了 实证 分 析 , 未 来 需要 在 其 他 技术 领 
域 展 开 分 析 ,进一步 验证 方法 的 系统 性 和 可 靠 性 。 
参考 文献 : 
m ` 超 , 雷 婧 , 冯 银 虎 , 等 . 基于 知识 图 谱 的 国际 突破 性 创新 

论 研 究 综述 [J]. 科学 管理 研究 , 2020, 38(1): 20-26. 
[2 e fp, XE. 突破 性 技术 创新 :理论 综述 与 研究 展 


= 


55 


图 天 情报 三 作 


第 66 卷 第 10 期 2022 年 5 月 


ChinaXiv 合 作 期 刊 


[J]. 技术 经 济 , 2017, 36(4) : 30 -37. 

[3 ] HAIN D S, CHRISTENSEN J L. Capital market penalties to radi- 
cal and incremental innovation[ J]. European journal of innovation 
management, 2020 , 23(2) ; 291 - 313. 

[4] 万 宁 . 浅 析 颠 履 性 创新 、 破 坏 性 创新 和 突破 性 创新 三 者 关系 
[I]. dj, 2015(30) . 122 - 123. 

[5 ] ABERNATHY W J, UTTERBACK J M J T R. Patterns of innova- 

tion in technology [J]. Technology review, 1978, 80(7); 41 

一 47. 

MCDERMOTT C M, O’ CONNOR G C. Managing radical innova- 


m 
CN 
La 


tion; an overview of emergent strategy issues[ J]. Journal of prod- 
uct innovation management, 2002, 19(6) : 424 — 438. 
[7 


La 


LEIFER R. Radical innovation; how mature companies can outsm- 

arts upstatrs| M]. Brighton; Harvard Business Press, 2000. 

[8] 张 金 柱 , 张晓林 . 基于 专利 科学 引文 的 突破 性 创新 识别 研究 述 
VEL]. 情报 学 报 , 2016, 35(9): 955 -962. 

[ 9A SCHOENMAKERS W, DUYSTERS G. The technological origins of 

Research policy, 2010, 39 (8); 1051 


adical inventions [ J ]. 


| 一 1059. 
[ ÍO-DAHLIN K B, BEHRENS D M. When is an invention really radi- 


e 


^cal? defining and measuring technological radicalness [ J]. Re- 
search policy, 2005, 34(5) : 717 - 737. 

[TS YOON J, KIM K. Identifying rapidly evolving technological trends 
CN R&D planning using SAO-based semantic patent networks[ J ]. 
Dscientometrics, 2011, 88(1) : 213 - 228. 

[他 NSHrpATA N, KAJIKAWA Y, TAKEDA Y, et al. Detecting emer- 

ging research fronts based on topological measures in citation net- 
US works of scientific publications [J]. Technovation, 2008, 28 
(QD: 758 -775. 

[1 于 刘 亚 辉 , 许 海 云 突破 性 创新 早期 识别 与 弱 信 号 分 析 综述 

到 图 书 情报 工作 , 2021, 65(4) : 89 - 101. 


e. 
[14 DZHANG Y, ZHANG G, CHEN H, et al. Topic analysis and fore- 


casting for science, technology and innovation; methodology with a 
case study focusing on big data research[ J]. Technological forecas- 
ting and social change, 2016, 105; 179 — 191. 

[15] F, 玄 洪 升 . 专利 视角 下 融合 多 属性 的 技术 创新 主题 挖掘 方 

法 一 一 以 芯片 领域 专利 为 例 [J]j. 图 书 情报 工作 ，2020 ，64 
(11): 96 -107. 

[16] CHEN H, WANG X, PAN S, et al. Identify topic relations in sci- 


entific literature using topic modeling[ J]. IEEE transactions on 
engineering management, 2021, 68(5) ; 1232 — 1244. 

[17] CHEN H, ZHANG G, ZHU D, et al. Topic-based technological 
forecasting based on patent data; a case study of Australian patents 
from 2000 to 2014 [J]. 
change, 2017, 119; 39 — 52. 

[18] SUOMINEN A, TOIVANEN H. Map of science with topic model- 


Technological forecasting and social 


ing: comparison of unsupervised learning and human-assigned sub- 
ject classification [ J]. Journal of the Association for Information 


Science and Technology, 2016, 67(10) : 2464 —2476. 


[19] JUNG S, YOON W C. An alternative topic model based on com- 
mon interest authors for topic evolution analysis| J]. Journal of in- 
formetrics, 2020, 14(3) : 101040. 

[20] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed repre- 
sentations of words and phrases and their compositionality [ C ]// 
Proceedings of the 26th international conference on neural informa- 
tion processing systems. New York; ACM, 2013; 3111 3119. 

[21] ZHANG Y, LU J, LIU F, et al. Does deep learning help topic ex- 
traction? a kernel k-means clustering method with word embedding 
[J]. Journal of informetrics, 2018, 12(4) ; 1099 — 1117. 

[22] CHEN H, JIN Q, WANG X, et al. Profiling academic-industrial 
collaborations in bibliometric-enhanced topic networks; a case 
study for digitalization research[ J]. Technological forecasting and 
social change, 2022, 175: 121402. 


[23] DEWAR R D, DUTTON J E. The adoption of radical and incre- 


jami 


mental innovations; an empirical analysis [J]. Management sci- 
ence, 1986, 32 (11): 1422 - 1433. 

[24] LI H, ZHANG Q, ZHENG Z. Research on enterprise radical inno- 
vation based on machine learning in big data background[ J]. Jour- 
nal of supercomputing, 2020, 76(5) : 3283 - 3297. 

[25] WZ x, 许 海 云 , 武 华 维 , 等 . 基于 引文 曲线 拟 合 的 新 兴 技 术 

主题 的 突破 性 预测 一 一 以 干细胞 领域 为 例 [J]. 图 书 情 报 工 
作 , 2020, 64(5) : 100 - 113. 

[26] ZHOU K Z, YIM C K, TSE D K. The effects of strategic orienta- 


tions on technology- and market-based breakthrough innovations 
[J]. Journal of marketing, 2005 , 69 (2) : 42 - 60. 

[27] 许 海 云 , HE, 973. 突破 性 科学 创新 早期 识别 研究 综述 
[J]. 情报 理论 与 实践 , 2021, 44(4) : 198 -205. 

[28] ARTSS V R. The technological origins and novelty of breakthrough 
inventions[ C ]//35th DRUID celebration conference. Spain; Bar- 
celona, 2013; 1 30. 

[29] A, 杨威 , 张 玉 峰 . 基于 专利 挖掘 的 突破 性 创新 识别 框架 研 
究 [中 .情报 理论 与 实践 , 2016, 39(9): 73 -76 ,46. 

[30] WEIR, WIR, 吴 非 菲 . 萌芽 期 颠覆 性 技术 识别 研究 [ 中. 
科技 进步 与 对 策 , 2019, 36(1) : 10 - 17. 

[31] PONOMAREV I, LAWTON B K, WILLIAMS D E, et al. Break- 


through paper indicator 2. 0 : can geographical diversity and inter- 
disciplinarity improve the accuracy of outstanding papers predic- 
tion? [J]. Scientometrics, 2014, 100(3) ; 755 — 765. 

[32] KLEINBERG J. Bursty and hierarchical structure in streams [ J]. 
Data mining and knowledge discovery, 2003 , 7(4) : 373 - 397. 

[33] 张 金 柱 , 张晓林 . 基于 被 引 科学 知识 主题 突变 的 突破 性 创新 识 
别 [J 现代 图 书 情报 技术 , 2016(Z1 ) : 42 - 50. 

[34] CHEN C, CHEN Y, HOROWITZ M, et al. Towards an explana- 


tory and computational theory of scientific discovery[ J]. Journal of 
informetrics , 2009, 3(3) ; 191 -209. 

[35] AHUJA G, LAMPERT C M. Entrepreneurship in the large corpora- 
tion: a longitudinal study of how established firms create break- 


through inventions[ J ]. Strategic management journal, 2001, 22 


56 


is ves ^E HBTI 
陈 虹 枢 ， 宋 亚 慧 ， 金 菌 苗 ,等 .动态 主题 网 络 视角 下 的 突破 性 创新 主题 识别 :以 区 块 链 领域 为 例 GPRS IES 3 


66 (10) :45 - 58. 


(6/7) : 521 - 543. 
[36] 张 军 . 破坏 性 创新 的 特征 分 析 [J]. 商场 现代 化 ，2007 
(27): 76. 

[37] 张 栋 . 面向 2035 年 的 突破 性 创新 测度 .识别 与 预测 [JJ 中国 
科技 论坛 , 2020(8) : 11 - 14. 

[38] 庄子 银 , 贾 红 静 , 肖 春 唤 . 突破 性 创新 研究 进展 [J]j. 经 济 学 
动态 , 2020(9): 145 -160. 

[39] DELLA MALVA A, KELCHTERMANS S, LETEN B, et al. Basic 


science as a prescription for breakthrough inventions in the pharma- 
ceutical industry [J]. Journal of technology transfer, 2015, 40 
(4): 670 -695. 

[40] DESS G G P S D. Porter' s generic strategies as determinants of 
strategic group membership and organizational performance[ J]. A- 
cademy of management journal, 1984 , 27(3) : 467 — 488. 

[41] DOSI G. Technological paradigms and technological trajectories; a 

suggested interpretation of the determinants and directions of tech- 
nical change[J]. Research policy, 1982, 11(3) ; 147 - 162. 
ARNES, 张 洪 石 . 突破 性 创新 :概念 界定 与 比较 [J]. 数量 经 济 
人 -技术 经 济 研究 , 2004 (3) : 73 - 83. 
[ À-DANDERSON P, TUSHMAN M L. Technological discontinuities and 


ij — designs: a cyclical model of technological change [ J ]. 
ŒF Administrative science quarterly, 1990, 35(4) : 604 — 633. 
[BEERE ERU, 葛 昕 玮 突破 性 创新 管理 模式 研究 [ 了. 中 外 
GN 科技 信息 ， 2001(11) : 38 - 41. 
[45DWANG X, WANG Z, HUANG Y, et al. Identifying R&D partners 


C rough subject-action-object semantic analysis in a problem & so- 
—»lution pattern [ J]. Technology analysis & strategic management, 
5.20017 , 29(10) ; 1167 - 1180. 

[46 和 9 胡 正 银 , DE 专利 文本 技术 挖掘 研究 进展 综述 [可 .现代 图 
《一 书 情报 技术 , 2014(6) : 62 -70. 

LAT-BLEI D M. Probabilistic topic models[ J]. Communications of the 
CACM, 2012, 55(4) : 77 -84. 

[48] DE BATTISTI F, FERRARA A, SALINI S. A decade of research 


in statistics; a topic model approach [ J]. Scientometrics, 2015, 
103(2) ; 413 - 433. 

[49] WATTS R J, PORTER A L. Innovation forecasting[ J Techno- 
logical forecasting and social change, 1997 , 56(1) : 25 - 47. 
[50] KRR, 郭 凤 娇 , BU 4E. 科学 计量 学 主流 研究 领域 与 热点 前 
WWR]. 图 书 情报 工作 , 2015, 59(2) : 66-74. 

[51] TORTORIELLO M, MCEVILY B, KRACKHARDT D. Being a 


catalyst of innovation; the role of knowledge diversity and network 
closure[ J]. Organization science, 2015 , 26(2) : 423 438. 

[52] 张 金 柱 , 张晓林 . 利用 引用 科学 知识 突变 识别 突破 性 创新 
[J]. 情报 学 报 , 2014, 33(3) : 259 -266. 

[53] FH, RUR, DING Y, 等. 国外 新 兴 研 究 话题 发 现 研究 综述 
[J]. 情报 学 报 , 2019, 38(1) : 97 - 110. 

[54] GRIFFITHS T L, STEYVERS M. Finding scientific topics [ J]. 


Proceedings of the National Academy of Sciences of the United 


States of America, 2004, 101; 5228 — 5235. 

[55] WEI X, CROFT W B. LDA-based document models for ad hoc re- 
trieval| C ]//The 29th annual international ACM SIGIR conference 
on researchand development in information retrieval. New York: 
Association for Computing Machinery, 2006 ; 178 — 185. 

[56] LEVY O, GOLDBERG Y, DAGAN I. Improving distributional 
similarity with lessons learned from word embeddings[ J]. Transac- 
tions of the Association for Computational Linguistics, 2015, 3: 
211 -225. 

[57] ZHANG Y, ZHANG G Q, ZHU DH, et al. Scientific evolutionary 
pathways ; identifying and visualizing relationships for scientific top- 
ics[J]. Journal of the Association for Information Science and 
Technology, 2017 , 68(8) : 1925 — 1939. 

[58] XE, 王 续 琨 , 高 继 平 , 等 . 技术 坐标 视角 下 的 主题 分 析 一 一 以 第 
三 代 移 动 通信 技术 为 例 [J]. 情报 学 报 , 2012, 31(6) : 603 -611. 

[59] ZA, 王 德 庄 , 马 海 群 . 社会 网 络 分 析 方法 在 图 书 情报 学 科 的 
应 用 研究 LM]. 北京 : 知识 产权 出 版 社 , 2019. 

[60] KONG X J, SHI Y J, YU S, et al. Academic social networks: 


modeling, analysis, mining and applications| J]. Journal of net- 


work and computer applications, 2019, 132; 86 — 103. 
[61] 宋 歌 . 网 络 结构 视 域 下 的 创新 潜力 指标 研究 [J]]， 图 书 情报 工 
作 , 2014, 58(3) : 64 -71. 

[62] 路 前 祥 . 学 科 交 叉 与 交叉 科学 的 意义 [J 中 国 科学 院 院 刊 ， 
2005(1 ) : 58 -60. 
[63] 商 琦 ， 陈 洪梅 . 区 块 链 技术 创新 态势 专利 情报 实证 [J]. 情报 
杂志 , 2019, 38(4) : 23 -28 ,59. 

司 凯 伦 . 面向 区 块 链 的 交易 传播 算法 和 去 中 心 化 机 器 学 习 相 
RIL D]. 桂林 :广西 师范 大 学 , 2021. 

[65] 何 帅 , EES, 刘谦 博 , 等 . DPoS 区 块 链 共 识 机 制 的 改进 研究 
[J]. 计算 机 应 用 研究 , 2021, 38(12) : 3551 -3557. 

[66] 朱 书 坤 ,基于 区 块 链 和 卷 积 神经 网 络 的 电动 汽车 能 源 交易 方 
案 设 计 与 实现 [D]. 武汉 :华中 师范 大 学 , 2020. 

[67] NSTC. Critical and emerging technologies, CETs[ R]. Washing- 


[64] 


TI 


T 


en 


ton, DC; National Science and Technology Council, 2022. 
[68] 武 继 刚 , 刘 同 来 , 李 境 一 ,等 . 移动 边缘 计算 中 的 区 块 链 技术 
研究 进展 [J. 计算 机 工程 , 2020, 46(8) : 1 - 13. 

[69] W, Bid. 李 征 , 等 .区 块 链 + 边缘 计算 技术 白皮书 [R]. 
杭州 : 中 国 移动 5G 联合 创新 中 心 , 2020. 

[70] ERIE, 程 加 成 , 桑 新 欣 , 等 . 区 块 链 数据 隐私 保护 :研究 现状 
Ej ERDJ]. 计算 机 研究 与 发 展 , 2021, 58(10) : 2099 -2119. 


g 


作者 贡献 说 明 : 

陈 虹 枢 :方法 构思 、 论 文 撰写 ; 

宋 亚 慧 :数据 获取 、 论 文 实验 、 论 文 撰写 ; 
金 苗 苗 : 方 法 检验 、 论 文 撰写 ; 

汪 雪 锋 : 方 法 检验 、 论 文 撰写 。 


57 


Q4 dde xit ChinaXiv 合 作 期 乔 


第 66 卷 第 10 期 2022 年 5 月 


Radical Innovative Topic Identification from a Perspective of Dynamic Topic Network : 
Taking the Field of Blockchain as an Example 
Chen Hongshu Song Yahui Jin Qianqian Wang Xuefeng 
School of Management and Economics, Beijing Institute of Technology, Beijing 100081 

Abstract: | Purpose/Significance | Radical innovation plays a key role in the development of science and tech- 
nology. In the big data environment, the complex, multidimensional, and continuous evolutionary characteristics of 
science and technology development itself is becoming more observable than ever before. It is important to identify 
these topics from a dynamic perspective to provide solutions for countries, enterprises and universities to analyze radi- 
cal innovation areas, allocate innovation resources rationally and seek innovation upgrades. | Method/Process | This 
paper integrated methods of topic modeling, word embedding algorithm, and complex network analysis to construct 
dynamic topic networks, and evaluate the structural characteristics of the topics within different time windows and the 
topic evolution states between these time windows. Based on dynamic topic networks, this paper then combined the 
*movelty, mutation, impact and interdisciplinary characteristics of radical innovation to identify topics of radical inno- 
LE | Result/Conclusion | Through the empirical study on blockchain, this paper recognizes that two topics with 
Cthe most significant radical innovative characteristics are Neural Network and Edge Computing. With existing research 
blockchain and the list of critical and emerging technologies issued by the National Science and Technology Council 
STC) of the United States, this paper finally verifies the feasibility and effectiveness of the proposed method. 
«However, further quantitative verification of the result of this paper, and identification of radical innovative topics by 

using multi-source data, require further research in the future. 
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